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一 种 基于 性 格 的 微 博 情感 分 析 模 型 PLSTM 


KEF, LE, TRO. KEZ, MEK 
(新 疆 大 学 信息 科学 与 工程 学 院 ， 乌 鲁 木 齐 830046) 


摘 要 : 不 同性 格 的 用 户 所 具有 的 语言 表达 方式 不 尽 相 同 ， 现 有 的 情感 分 析 工 作 很 少 考虑 到 用 户 的 性 格 ， 针 对 此 问 
题 ， 提 出 一 种 基于 性 格 的 微 博 情 感 分 析 模型 PLSTM。 该 模型 首先 采用 性 格 识别 规则 将 微 博文 本 分 为 五 个 性 格 集合 
和 一 个 通用 集合 ， 其 次 针对 每 种 性 格 文本 集合 分 别 训练 出 一 个 情感 分 类 器 ， 最 后 对 六 个 基本 情感 分 类 器 进行 融合 ， 
得 出 最 终 的 情感 极 性 。 实 验 结果 显 示 PLSTM 方法 的 Fl 值 可 以 达到 96.95%, 表明 PLSTM 比 起 以 前 常用 的 基准 情感 
分 析 模 型 在 准确 率 、 召 回 率 、Fl 值 上 都 有 较 大 提高 。 

关键 词 : 情感 分 析 ; 性 格 ; Word2vec ; 长 短 时 记忆 网 络 ; 分 类 器 融合 
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Personality-based Microblog sentiment analysis model plstm 


Yuan Tingting, Yang Wenzhong, Zhong Lijun, Zhang Zhihao, Xiang Jinyong 
(College of Information Science & Engineering, Xinjiang University, Urumqi 830046, China) 


Abstract: Users of different personalities have different language expressions. Existing sentiment analysis work rarely 
considers the personality of the user. To solve this problem, this paper proposes a micro-blog sentiment analysis model 
based personality PLSTM. The model firstly uses the personality recognition rules to divide the microblog text into five 
personality sets and a universal set, then train a sentiment classifier for each personality set, and finally integrate six basic 
sentiment classifiers to obtain the ultimate sentiment polarity. The experimental results show that the F1 value of the 
PLSTM method can reach 96.95%, which indicates that PLSTM has a higher improvement in accuracy, recall rate and F1 
value than the commonly used benchmark sentiment analysis model. 
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0 引言 变 的 驱动 因素 之 一 是 以 评论 、 博 客 、 微 博 、 社 交 媒体 评论 等 
为 主 的 文本 越 来 越 多 ， 这 类 文本 中 包含 大 量 主观 情感 。 

近 几 年 来 ， 随 着 互联 网 技术 的 快速 发 展 和 日 渐 成 熟 ， 网 Pang 等 人 与 在 电影 评论 数据 集 上 利用 文 持 向 量 机 
络 社交 平台 受到 越 来 越 多 的 人 广泛 使 用 。 微 博 、 微 信 等 新 兴 CSVM)、 朴 素 贝 叶 斯 ONB) 和 最 大 焙 等 方法 研究 了 评论 文 
社交 平台 可 以 方便 快捷 地 发 布 文本 、 图 片 、 视 频 ， 方 便 用 户 ” 本 的 情感 极 性 判定 ， 但 没有 考虑 到 不 同性 格 用 户 的 评论 风格 
进行 信息 交流 和 意见 表达 ， 因 而 深 受 广大 的 用 户 的 喜爱 。 也 不 同 这 个 问题 。Yu 等 人 名 运用 句子 相似 性 和 朴素 贝 叶 斯 分 
微 博 不 仅 是 人 与 人 之 间 交 流 和 沟通 的 一 种 媒介 ， 也 是 一 ”类 器 进行 主观 文本 分 类 。 句 子 相似 性 方法 是 基于 主观 句 与 主 
种 在 工作 和 日 常生 活 中 表达 个 人 情感 的 方式 。 人 们 可 以 在 微 ” 观 句 之 间 的 相似 程度 高 于 主观 句 与 客观 句 之 间 的 相似 程度 的 
博 上 了 解 最 新 的 各 种 热门 事件 ， 发 表 自 己 的 看 法 和 了 解 别 人 ”假设 。 魏 杀 等 人 "分 别 从 文本 粒度 、 文 本 类 型 角度 介绍 了 情 
的 看 法 。 用户 在 表达 观点 、 传 播 思想 、 反 发 个 人 情感 的 同时 ， ” 感 分 析 的 研究 进展 ， 并 介绍 了 现 有 的 相关 资源 ， 但 对 具体 的 


会 产生 大 量 带 有 个 人 主观 情感 特征 的 信息 ， 这 些 信息 中 包含 。 方法 并 没有 仔细 介绍 。 杨 立 公 等 人 由 以 文本 粒度 为 视角 ， 从 
着 不 同 倾向 性 的 情感 特征 ， 可 能 反映 了 用 户 的 爱好 和 兴趣 ， 情感 词 抽 取 、 语 料 库 和 情感 词典 构建 、 评 价 对 象 与 意见 持 有 
也 可 能 对 网 络 与 情 的 传播 产生 巨大 的 影响 。 因 此 ， 通 过 对 微 ” 者 分 析 、 篇 章 级 情感 分 析 、 实 际 应 用 五 个 方面 对 文本 情感 分 
博 言 论 进行 情感 分 析 可 以 衡量 微 博 用 户 的 偏好 和 政治 站 位 ， 析 文 献 进行 了 梳理 ， 并 作出 必要 评述 。 张 林 等 人 外 提出 了 基 
通过 对 微 博 中 言论 进行 情感 分 析 也 可 了 解 人 们 对 现实 生活 中 ”于 短评 论 共 现 的 特征 筛选 方法 来 进行 特征 选择 ， 使 用 短评 论 


了 

的 一 些 热点 事件 的 看 法 、 预 测 未 来 趋势 ， 若 微 博 言论 中 出 现 ”的 特征 来 补充 长 评论 的 特征 。 但 没有 考虑 将 用 户 性 格 也 作为 
不 利于 民族 团结 的 、 破 坏 民 族 团结 的 言论 ， 可 以 及 时 进行 控 ”特征 的 一 部 分 Poria 等 人 Mo 采用 融合 语音 、 视 频 和 文本 的 多 
制 、 引 导 熏 论 向 着 积极 正面 的 方向 发 展 。 模 态 线索 进行 情感 分 析 。 刘 小 明 等 人 I 吊 使 用 卷 积 神经 网 络 来 
情感 分 析 这 个 术语 是 Nasukawa AE 2003 年 首次 使 。” 进行 特征 提取 ， 最 后 训练 出 基于 深度 卷 积 神经 网 络 的 互联 网 
用 的 。 意 见 挖 掘 这 个 术语 是 Dave 等 人 中 于 2003 年 首次 使 用 。 短文 本 情感 分 类 模型 。Li 等 人 02 提 出 采用 长 短期 记忆 语言 模 
的 。 最 初 的 文本 挖掘 研究 5 着重 于 从 文本 中 提取 事实 信息 。 型 (LSTM) 来 进行 情感 分 析 。Chen 等 人 13 使 用 了 BiLSTM 
而 近来 焦点 正在 转向 意见 挖掘 ， 也 被 称 为 情感 分 析 。 这 种 转 A CNN 两 种 神经 网 络 方法 来 提高 情感 分 析 的 效果 。 
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针对 微 博 的 情感 分 析 ， 何 炎 祥 等 人 05 提 日 
勾 增强 的 深度 学 习 模 型 。 首 先 使 用 词 向 量 表示 技术 来 对 微 博 


8 了 一 种 情感 语 


常用 的 表情 符号 构建 一 个 情感 空间 的 特 和 


neural network) 模型 ，j 


义 
中 
和 矩阵 和 词 向 量 进行 乘积 运算 得 到 词义 到 情感 空间 的 映射 ， 
将 映射 结果 输入 到 一 个 MCNN (multi-channel convolution 
练 得 到 一 个 微 博 情感 分 类 器 。 但 没 


FE 表示 和 矩阵， 在 将 


和 找 同义词 等 。Word2vec 可 以 对 其 词 向 量 进行 高 效 的 加 法 
组 合 运算 , Mikolov 在 文献 [24] 中 提 昌 
一 天 可 训练 上 千 亿 词 。 
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的 一 个 


多 化 的 单机 版 本 


在 文本 情感 分 析 的 研究 中 ， 单 词 之 间 的 顺序 关系 是 至 关 


imli 


EH. Mikoloy?5 


提出 了 一 种 被 


称 为 递归 神 


经 网 络 (RNN) 


有 考虑 到 性 格 会 影响 到 用 户 的 表达 方式 ， 不 同性 格 的 用 户 在 ”的 语言 模型 ， 该 模型 被 公认 为 非常 适合 处 理 文 本 序列 数据 。 
表达 过 程 中 使 用 的 词语 或 者 表情 符号 会 有 所 不 同 。Sun AHI 从 理论 上 讲 ，RNN 语言 模型 可 以 覆盖 全 文 的 时 间 顺 序 结构 ， 
等 采用 基于 卷 积 扩展 特征 的 深度 神经 网 络 来 进行 中 文 微 博 的 。” ”处 理 长 期 依赖 性 问题 。 然而 在 实践 中 ,RNN 可 能 无 法 成 功 地 
情感 分 析 ， 实 验 结果 表明 ， 在 适当 的 结构 和 参数 条 件 下 ， 提 ” ” 学 习 到 相关 的 知识 。 当 文本 的 相对 信息 与 要 预测 的 当前 位 置 
出 的 深度 信念 网 络 对 情感 分 类 的 性 能 要 优 于 SVM, NB 等 模 之 间 的 间隔 变 大 时 ， 由 于 随时 间 向 后 传播 算法 (BPTT) 的 后 
型 。 向 传播 层 数 过 多 ， 会 导致 训练 时 的 历史 信息 丢失 和 梯度 衰减 
在 性 格 预测 方面 ， 有 许多 心理 学 和 计算 科学 研究 都 探讨 ”或 爆炸 P9。 为 了 克服 这 一 困难 ，Hochreite 等 人 P71 提出 了 长 短 
了 大 五 模型 09 中 人 们 的 语言 使 用 和 人 格 特征 之 间 的 关系 07。 期 记忆 网 络 (Long Short Term Memory，LSTM)， 在 某 些 应 
大 多 数 研 究 利用 皮尔 逊 相关 系数 或 斯 皮尔 曼 的 秩 相 关系 数 来 用 场景 下 可 以 得 到 较 好 的 实验 结果 。LSTM 通过 详细 的 设计 
衡量 相关 性 的 强度 ， 并 识别 用 户 生成 内 容 中 不 同人 格 特征 相 ”来 避免 长 期 依赖 , 在 实践 中 记 住 长 期 信息 是 LSTM 的 默认 行 
关 的 重要 语言 线索 上。 人 们 也 已 经 开始 使 用 机 器 学 习 技 术 来 ”为 。 目 前 ，LSTM 网 络 是 应 用 最 为 广泛 的 一 种 ， 它 用 LSTM 
预测 社交 媒体 中 用 户 的 性 格 特征 20。Golbeck 等 人 20 提取 ”单元 代替 隐藏 层 中 的 RNN 节点 ， 用 于 保存 文本 历史 信息 。 
Twitter 使 用 特征 ， 结 构 特 征 和 语言 特征 ， 并 应 用 两 种 回归 算 LSTM 使 用 三 个 门 来 控制 文本 历史 信息 的 使 用 和 更 新 ， 这 些 
法 预测 用 户 的 人 格 特征 。Bai 等 人 2 建议 利用 多 任务 回归 和 窒息 分 别 是 输入 门 ， 忘 记 门 和 输出 门 。 存 储 单元 和 三 个 门 设 
增 量 回归 来 通过 新 浪 微 博 (weibo.com) 用 户 的 在 线 行为 来 预 ” 计 使 LSTM 能 够 读 取 ,保存 和 更 新 远程 历史 信息 ， 图 1 显示 
测 用 户 性 格 。Nowson 等 人 22 应 用 机 器 翻译 模型 来 解决 基于 了 LSTM 的 结构 。 
文本 


本 的 性 格 预测 中 的 多 语言 问题 。 


4 情感 分 析 和 性 格 预测 工作 基本 上 都 是 不 同 下 


。 人 情感 分 析 没 有 考虑 到 不 同 用 


也 没 


(personality long short term memory network, 3&-T 


短 时 记忆 网 络 )。 
1 ”相关 概念 
1.1 性 格 模型 


了 考虑 情感 分 


究 表明 ， 人 性 格 会 影响 人 们 
BIA] 
基于 性 格 的 微 博 情感 分 析 模 型 PLSTM 


心理 学 


Fez 


析 与 性 


户 的 性 格 的 表达 情感 
格 分 析 的 结合 方式 。 心 
的 写作 和 说 话 方式 ， 具 有 相 
FF 选择 类 似 的 情感 表达 。 针 对 这 一 问题 ， 本 


生 格 的 长 


和 MBTI 模型 [23] 


.在 性 格 模型 


8 了 一 些 性 格 模型 ， 如 Big Five 模型 09 
中 ， 大 五 模型 是 较为 权威 的 性 


格 模型 n7 
型 从 五 个 维 


在 nh JH 


学 和 人 


度 来 描述 人 的 性 格 ， 即 开放 性 ， 责 任性， 外 向 性 ， 


智能 中 被 广泛 采 月 


juo, KEAR 


愉悦 性 和 神经 质 


o H 


F 放 度 高 的 人 富有 想象 力 、 创 造 力 和 好 奇 


Output Layer `` 
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区 | 


Fig. 1 


1 LSTM 结构 
LSTM structure 


基于 性 格 的 微 博 情感 分 析 模型 


为 了 进一步 提升 情感 分 析 的 效果 ， 本 文 提 出 
性 格 的 微 博 情感 分 析 模 型 。1 


心 。 责 任性 反映 了 一 个 人 自律 和 为 机 会 做 好 充分 准备 的 程度 。 


高 度 责任 性 的 人 热衷 于 工 


E, 


淘 望 有 


区 得 成 就 。 外 向 性 高 的 人 


表示 喜欢 与 人 交往 ， 而 内 向 者 喜欢 独处 。 愉 悦 性 的 人 是 慷慨 
的 、 值 得 信赖 的 ， 他 们 总 是 愿意 去 帮助 别人 。 神 经 质 反映 了 
人 的 情绪 的 不 稳定 程度 。 


1.2 Word2vec 


Word2vec 是 Google 站 


简介 


作出 的 一 种 训练 词 向 量 模 型 的 工具 ， 


微 博文 本 , 采用 


文本 中 往往 包含 了 类 似 的 情感 特征 
博文 本 分 到 不 同 的 性 格 集合 中 。 然 后 针对 每 组 
word2vec 得 到 文本 中 词 


^J 


Ik — 4 


成 分 类 器 。 当 对 


到 微 博文 本 的 词 向 量 和 矩阵 ， 采 用 该 向 量 


E 


和 普通 情感 分 类 器 的 结果 ， 采 月 


} 微 博文 本 进 


于 性 格 相 同 的 用 户 发 布 的 微 博 
VIE 


EI^] [rg] 
EFE 


个 基于 


6 根据 性 格 将 微 
数据 集合 中 的 


量 表示 , 进而 得 


H 


FE 为 LSTM 的 输 
青 感 分 类 器 。 最 后 ， 为 了 整合 所 有 基于 个 性 
集成 学 习 ， 并 构建 了 一 个 旨 
行 分 类 时 , 每 个 分 类 器 生成 输出 ， 


Yr 


采用 的 语言 模型 主要 有 CBOW (continuous bag-of-words, 然后 将 其 用 作 集 成 分 类 器 的 输入 以 产生 最 终 的 分 类 结果 。 基 
即 连续 的 词 袋 模型 ) 和 skip-gram 两 种 。Word2vec 可 以 把 文 于 性 格 的 情感 分 类 模型 框架 如 图 2 所 示 ,， 其 中 C、A、BE 分 别 
本 进行 数字 化 表示 即将 文本 转换 为 计算 机 能 识别 和 理解 、 并 指 外 向 性 ， 愉 悦 性 和 责任 型 三 个 维度 ，H\、L 各 性 格 值得 高 
进行 处 理 的 形式 。 它 是 一 种 神经 网 络 ， 它 可 以 在 使 用 深度 学 低 ， 例 如 HA 表示 高 愉悦 性 、LA 表示 低 愉悦 性 。 

习 算 法 之 前 对 文本 进行 预 处 理 。 虽 然 word2vec 本 身 没有 实现 2.1 性 格 分 类 

深度 学 习 ， 但 是 它 把 文本 变 成 了 深度 学 习 能 够 理解 的 向 量 形 为 了 准确 地 将 微 博文 本 分 配给 不 同 的 集合 ， 需 要 准确 地 
式 00。Word2vec 可 以 通过 训练 把 文本 内 容 的 处 理 简化 为 K 预测 文本 具有 的 性 格 特色 。 目 前 性 格 预测 中 主要 考虑 大 五 模 
维 向 量 空间 中 的 向 量 运算 ， 文 本 语义 上 的 相似 度 可 以 通过 向 型 中 的 三 个 性 格 维度 : 外 向 性 (extraversion ,. fiy i TE 
量 空间 上 的 相似 度 来 进行 表示 。 因 此 通过 word2vec 训练 的 词 Cagreeableness) 和 责任 性 〈conscientiousness)。 另 外 两 个 维 
向 量 可 以 被 很 多 NLP 相关 的 工作 使 用 。 例如 词性 分 析 、 聚 类 度 ， 开 放 性 和 神经 质 ， 在 以 前 的 研究 基础 上 进行 预测 难度 较 
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[920 因 此 本 文中 没有 考虑 。 


大 
分 
性 


为 高 、 
、 低 愉悦 性 、 


低 两 个 维度 ， 


因此 本 文 主要 看 
高 外 向 性 、 低 外 向 性 


PIH, €i 一 种 基于 性 格 的 微 博 情感 分 析 模型 PLSTM 


根据 性 格 的 得 分 值 一 个 性 格 又 


究 高 责任 性 、 
五 个 维度 。 由 于 微 博 中 


高 愉悦 


低 责 任性 的 文本 太 少 ， 本 文中 暂时 没有 考虑 低 责 任性 这 一 性 


格 。 


微 博文 本 


基于 用 户 性 格 的 微 博文 本 分 组 


( ”HA 文本 组 ) ( HE 文本 组 ) 


(LA 文本 组 ) ( LE 文本 组 ) 


Y 


基于 LSTM 的 情感 分 类 器 构建 


(_HA 分 类 器 ) (HE 分 类 器 ) 


(C LA ) ( LEA ) 


(HC 分 类 器 ) 
C Aux) 


ChinaXiv 合 作 期 刊 
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K 2 性 格 预测 的 文本 特征 
Table 2 Text characteristics of personality prediction 
寺 征 符号 FERS EX 
HC_Cword 文本 中 高 责任 性 词语 的 数量 
HC_Cemoction 文本 中 表达 高 责任 性 的 表情 符号 的 数量 
HA_Cword 文本 中 高 愉悦 性 词语 的 数量 
HA_Cemoction 文本 中 表达 高 愉悦 性 的 表情 符号 的 数量 
LA_Cword 文本 中 低 愉 悦 性 词语 的 数量 
LA_Cemoction 文本 中 表达 低 愉悦 性 的 表情 符号 的 数量 
HE_Cword 文本 中 高 外 向 性 词语 的 数量 
HE Cemoction 文本 中 表达 高 外 向 性 的 表情 符号 的 数量 
LE_Cword 文本 中 低 外 向 性 词语 的 数量 
LE_Cemoction 文本 中 表达 低 外 向 性 的 表情 符号 的 数量 
2.2 情感 分 类 器 的 结果 融合 
采用 已 标记 的 数据 集 来 构造 每 个 性 格 集合 的 基本 情感 分 
词 和 词 具 有 长 


类 器 。 由 于 微 博文 本 是 词 为 单位 的 序列 数据 ， 


Y 


分 类 器 结果 融合 


C 


情感 分 类 结果 


图 


2 基于 性 格 的 情感 分 类 模型 框架 


Fig.2 Personality-based sentiment classification model framework 


Cextraversion 2 ， 愉 
Cconscientiousness) 这 
首先 针对 每 个 性 
格 下 的 常用 词语 。 词 
性 格 的 表达 。 表 1 


性 


本 文采 用 


Table 1 


的 是 基于 规则 


悦 性 


这 三 个 维 


度 的 性 格 。 


格 分 别 建立 了 一 个 性 格 词 


的 性 格 分 类 方法 来 预测 外 向 性 
Cagreeableness ) 和 责任 性 


程 依 赖 性 ， 尤 其 


是 反映 情感 和 性 格 方 


看 的 词 ， 长 程 依赖 的 可 


能 性 更 大 。 而 LSTM 是 一 个 序列 模型 ， 对 于 输入 数据 也 是 一 


个 序列 


通用 的 情感 分 类 器 ， 在 1 
混合 在 一 起 时 ， 那 些 较 少 使 


包含 了 该 


被 ) 


TX] 


表 1 性 


给 出 了 各 性 格 词 
格 词 


Example of personality dictionary 


示例 


个 文本 是 否 
中 部 分 词语 。 


UR EOS 


LT 


包含 词语 示例 


LB 


成 就 、 梦 想 、 坚 持 、 奋 斗 、3 
相信 、 很 棒 、 爱 你 、 
愚蠢 、 勾 结 、 


哈哈 、 开 心 、 喜 欢 、 


难过 、 伤 心 、 孤 独 、 慢 慢 来 、 安 静 


伤害 、 活 该 、 傻 子 


和 


每 个 性 格 群体 的 文本 特征 反映 了 相应 情感 表达 的 
E 性 的 表达 常常 是 对 成 就 的 看 
LE 与 爱情 和 赞美 有 关 ( 例 如“ 爱 


表 1 可 以 看 出 责任 
失败 )。 而 愉悦 性 的 表达 往生 


性 。 


a RE, 表达 更 多 的 是 
低 愉 悦 性 程度 的 表达 通常 包括 指责 或 辱骂 其 他 人 《如 “都 怪 


你 


”和 “思春 汪 )。 外 向 性 的 表达 喜欢 直接 表达 积极 〈 例 如 “ 开 
4") 或 消极 (如 “难过 ”) 的 情绪 。 
例如 对 于 文本 义 ， 妇 


i On 


司 情 Cun 255i 


Ayr Ed 


的 数量 CHC. Cword) RAKI 


较 高 ， 则 推断 该 
的 主要 文本 特征 .虽然 
但 

表 3 是 性 格 判定 的 规 
使 用 的 阔 值 ， 阔 值 的 大 小 
3 


A 
PS 


”)。 相 比 之 下 ， 


[ 果 文 本 中 高 责任 性 (HC) 表达 的 词 


青 符号 的 数量 (HC_Cemoction) 
文本 责任 性 值 比 较 高 。 表 2 给 出 了 性 格 预测 


前 篇 章 级 情感 分 析 取 得 不 错 的 成 果 ， 
对 于 大 多 数 文 文档 来 说 一 篇 文档 不 止 包含 一 种 情感 ， 单 从 
级 来 进行 情感 分 析 分 类 的 效果 不 如 句子 级 的 情感 分 析 。 


ij (其 中 pl; p2; uk 


，p10 是 规则 


实验 决定 )。 文本 满足 哪 一 个 性 格 


定 的 规则 就 被 划分 到 该 性 格 集合 中 ， 一 个 文本 可 以 符合 多 


性 格 判定 规则 ， 因 此 一 个 文本 也 可 以 同时 


[2 


属于 多 个 性 格 集 


给 定 一 组 微 博文 本 (4,6,…,4) ， 


分 类 器 为 每 条 微 博文 本 产生 输出 Pi 、 


， 并 且 LSTM 可 以 解决 长 程 依赖 问题 。 因 此 在 这 里 采 
用 的 是 LSTM 方法 来 构造 情感 分 类 器 。 

练 的 过 程 中 与 其 
的 与 个 性 相关 的 特征 可 
比 ， 本 文选 择 融合 不 同 基本 分 类 器 的 分 类 结果 。 
户 可 能 包含 多 种 性 格 ， 因 此 一 个 微 博文 本 也 可 能 属于 多 


Eu 
J sk 


首先 通过 LSTM 针对 每 个 性 格 数据 集 分 别 训练 得 到 一 个 
情感 分 类 器 ， 在 进行 预测 时 分 别 使 ) 
博文 本 进行 情感 倾向 的 预测 ， 之 后 对 所 有 六 个 基本 分 类 器 输 
出 的 结果 进行 结果 融合 .情感 分 类 器 的 融合 过 程 如 图 


j 每 一 个 情感 分 类 器 对 微 


3 所 示 。 
使 用 六 个 LSTM 基本 情感 


Pi» FEP p; M p; ara 


表示 第 j 个 分 类 器 计算 得 到 的 微 博 文本 的 积极 、 消 极 的 概率 。 


基于 每 个 基本 情感 分 类 器 的 输出 ， 


通过 融合 方法 将 结果 进行 


融合 得 到 最 终 的 情感 极 性 。 本 文 考虑 了 求 和 、 加 权 和 、 中 位 


数 三 种 融合 方法 。 三 种 融合 方法 公式 如 下 : 


， 1 
I = arg max, (- (py +P; Tec py) 


l' = arg max; (qı Py + d; py +-+ qePy)si=1,2,...,c; j =1,2,...,6 


1'= arg max, (median p, ),i = 
j 


本 文中 i 为 2， 情 感 类 别 
分 类 器 的 输出 概率 分 数 ; 


3 ” 微 博 情感 分 析 实 验 


),i =1,2,...,c; j=1,2,...6 (1) 
(2) 
12,..,c; j=1,2,...6 (3) 


其 中 :代表 最 终 的 情感 极 性 ; i 是 情感 类 别 数目 (i=1,2,3...0)， 
积极 和 消极 两 类 ; 
41,92,…4。 是 各 基本 分 类 器 的 权重 。 


分 别 为 六 个 


为 了 验证 本 文 提出 的 方法 的 可 行 性 设计 了 以 下 实验 。 本 
实验 的 实验 环境 : 操作 系统 为 Win7， 处 理 器 为 Intel Core i5, 


内 存 8 GB, CPU 为 2.5 GHz, 开发] 
Edition 3.3, 
3.4 实验 数据 


日 至 2014 年 12 H 15 日 期 间 


新 浪 


[ 具 为 PyCharm Community 


本 文 的 训练 数据 来 源 于 文献 [28]， 包 括 2009 Æ 10 月 21 


微 博 用 户 发 布 的 文本 。 文 本 


包含 其 微 博 内容 以 及 作者 基本 信息 ， 但 不 包括 转发 的 文本 。 
该 数据 集 包 含 了 10 474 条 文本 , 并 对 每 条 文本 都 进行 了 情感 


极 性 的 标注 。 


其 中 积极 的 有 7 562 


和 条， 消极 的 2912 条 。 


201812.00120v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


录用 定稿 RIF, F: 一 种 基于 性 格 的 微 博 情感 分 析 模 型 PLSTM 第 37 卷 第 2 期 
测试 数据 是 来 自 2012 年 CCF 自然 语言 处 理 与 中 文 计 筑 其 中 积极 文本 500 条 ， 消 极 文本 600 条 。 


会 议 提供 的 中 文 微 博 情 感 分 析 评 测 数据 , 共 取 1 100 条 文本 ， 


表 3 人 性格 判定 规则 


Table 3 Personality determination rules 


规则 名 称 规则 规则 含义 
二 " IF HC. Cword 2 pl V ics pm C" A A^ El B 
高 责任 性 前 . 当 文 本 中 包含 高 责任 性 词典 中 的 词语 数量 超过 p1， 或 者 文本 中 包含 高 责任 性 表情 符号 的 数 
F HC_Cemoction > p2 ` " -—— 
定 规 见 THEN CHC 超过 p2， 则 判定 该 文本 属于 高 责任 性 。 
ET IFLA Cwordzp5 V " ORE NN : 、 pe 
高 愉悦 性 为 当 文 本 中 包含 高 愉悦 性 词典 中 的 词语 数量 超过 p3， 或 者 文本 中 包含 高 愉悦 性 表情 符号 的 数量 
i LA Cemoction >p6 1 上 " 
定 规 见 a 超过 p4， 则 判定 该 文本 属于 高 愉悦 性 。 
、 IFLA Cwordzp5 V np c . . . iss lu 
Alis po EF ld Cdon- ri 当 文 本 中 包含 低 愉 悦 性 词典 中 的 词语 数量 超过 p5， 或 者 文本 中 包含 低 愉悦 性 表情 符号 的 数量 
o . Cemoction > p Ek "RES M Mt 
定 规 见 THENASLA 超过 p6， 则 判定 该 文本 属于 低 愉悦 性 。 
" IF HE Cword 2 p7 V : m c mom . m 
re Fn] TA ee 当 文 本 中 包含 高 外 向 性 词典 中 的 词语 数量 超过 p7， 或 者 文本 中 包含 高 外 向 性 表情 符号 的 数量 
Nu , Cemoction > p ! se , 
定 规则 spin. 超过 p8， 则 判定 该 文本 属于 高 外 向 性 。 
IFLE_ Cword zp9 V aca NEGÓ . Ar E, 34 
低 外 向 性 六 E emoco aiii 当 文 本 中 包含 低 外 向 性 词典 中 的 词语 数量 超过 p9， 或 者 文本 中 包含 低 外 向 性 表情 符号 的 数量 
emoction 7 
定 规 则 i 超过 p10， 则 判定 该 文本 属于 低 外 向 性 。 


THEN E = LE 


| 微 博文 本 
(6 


Hc” HA LA  ^HE LE. Full 


LSTM 情 感 分 类 器 ese ese ci A ) (6 ;e Gs í D) 


maan | LEE | | 预测 结果 
Y 


hsU ny uina &igpas $0 t :pps) t: O Po) 
sr Pa) t: W» D) t: (y Pa) t: rm Dy) t: (p35, Pa) t: (pio; Dx) 


基于 性 格 的 文本 分 组 


2:6 nj) t, : Co pi) t, FU Da t : Gs D) t : (B Dg) t, : (Ds Da) 
Y 
结果 融合 | 
Yy 


4 最 终 情感 分 类 器 分 类 结果 
m 
图 3 ”情感 分 类 器 的 整合 过 程 


Fig.3 The process of integration of sentiment classifiers 


3.2 基本 情感 分 类 器 比较 由 表 4 可 以 看 出 五 个 性 格 基本 情感 分 类 器 中 HA 分 类 器 
本 实验 主要 用 来 验证 各 基本 情感 分 类 器 的 分 类 准确 性 ， 和 HC 分 类 器 的 Fl 值 要 高 于 ALL 分 类 器 ， 这 表明 了 针对 不 

包括 五 个 性 格 基本 情感 分 类 器 和 一 个 通用 基本 情感 分 类 器 。 同性 格 集合 来 进行 情感 分 类 是 有 效 的 。 
训练 数据 中 包括 通用 数据 集合 10474 条 ， 高 责任 性 数据 集合 测试 数据 中 HA 性 格 的 文本 数据 和 HC 性 格 的 文本 数据 
(HC) 3151 条 ， 高 愉悦 性 数据 集合 (HA) 3188 条 ， 低 愉悦 wE, LA 性 格 的 文本 数据 最 少 。 从 五 个 性 格 基本 情感 分 类 
性 数据 集合 (LAO 3204 条 ， 高 外 向 性 数据 集 CHE) 5585, 器 的 比较 结果 可 以 看 出 HA 分 类 器 和 HC 分 类 器 都 有 较 高 的 
低 外 向 性 数据 集合 (LEO 3154 条 。 实 验 结果 如 表 4 所 示 。 Fl 值 ， 而 LA 分 类 器 则 有 具有 最 低 的 Fl 值 ， 这 也 说 明 某 一 个 
表 4 基本 情感 分 类 器 比较 性 格 的 文本 数据 较 多 时 ， 针 对 该 性 格 的 基本 情感 分 类 器 是 更 
Table 4 Comparison of basic sentiment classifiers 为 有 效 ， 说 明 针 对 不 同性 格 集合 来 进行 有 针对 性 的 情感 分 类 

性 格 ALL HA HC HE LA LE 是 有 意义 的 。 
F1 fä 8831 89.19 89.59 8739 7228 8325 为 了 进一步 研究 每 个 性 格 对 情感 分 类 最 终结 果 的 影响 

在 进行 结果 融合 的 时 候 去 掉 一 个 用 户 性 格 集合 的 情感 分 类 结 


录用 定稿 衣 婷 婷 ， 等 :一 种 基于 性 格 的 微 博 ' 
TR. 然后 将 其 性 能 和 PLSTM 方法 得 到 的 结果 进行 比较 。 表 5 
给 出 了 结果 对 比 ， 其 中 PLSTM_Hc、PLSTM_HA、PLSTMLLA、 


PLSTM-HE、PLSTML-LE 分 别 代表 进行 结果 融合 
Hi HC. HA. LA, HE 或 者 LE 性 格 文本 集合 
性 格 的 情感 分 类 模型 。 
AK 5 的 结果 可 以 看 出 在 这 几 种 情况 下 了 
F1 值 是 最 高 的 , 说 明 少 了 任何 一 个 性 格 文本 集 
类 效果 都 有 下 降 ， 表 明 每 种 性 格 文本 集合 都 可 
类 准确 性 做 出 贡献 ， 即 基于 性 格 的 情感 分 类 器 
分 利用 各 种 性 格 的 文本 集合 ， 这 样 训练 的 集成 
分 类 效果 较 好 。 
de 5 缺少 某 一 性 格 文本 集合 的 plstm 模型 实 
Table 5: PLSTM model experimental results lacking a s 


texts 


的 时 候 没 有 采 
时 训练 的 基于 


LSTM 方法 的 
合 情 感 极 性 分 
以 为 最 终 的 分 
的 训练 应 该 充 
情感 分 类 器 其 


验 结果 


et of personality 


PLSTM PLSTM.u4 PLSTM.uc PLSTMLHE PLSTM. L4 PLSTM. 1g 


准确 率 96.91 — 9445 95.18 | 95.18 | 9691 96.18 
召回 率 97.00 95.00 94.40 94.80 97.00 96.00 
F-Score 96.95 — 94.72 94.79 | 9499 96.95 96.09 
3.8 融合 方法 比较 

本 实验 用 来 验证 和 选择 不 同 基本 分 类 器 的 融合 方法 ， 主 
要 考虑 求 和 、 加 权 和 、 中 位 数 三 种 融合 方法 。 

求 和 方法 中 每 一 个 分 类 器 的 权重 是 相等 的 ， 即 4) 51/6 ; 


加 权 和 方法 中 通过 交叉 验证 的 方法 确定 实验 中 
权重 。 

加 权 和 方法 的 权重 确定 采 / 
准确 率 尽 可 能 高 。 


jas Xv ub, E 
这 里 采用 两 组 数据 进行 实验 


和 条， 消极 文本 600 条 ; 数据 2 ZEE EIER 
1500 和 条， 积极 和 消极 的 各 有 750 条 ; 
要 得 到 最 优 的 各 个 基本 情感 分 类 的 权 


自 2012 年 CCF 自然 语言 处 理 与 中 文 计算 会 议 ] 
博 情感 分 析 评 测 数据 ， 共 取 1100 条 文本 ,其 中 积极 文本 500 


各 性 格 集合 的 


要 制定 标准 是 
。 数 据 1 是 来 
是 供 的 中 文 微 


的 文本 ， 共 有 


重 计算 工作 量 


太 大 ， 本 文 做 了 三 十 组 实验 取 使 得 准确 率 最 好 
为 近似 最 优 结 
qı = 0.16, q, 20.23, q, = 0.16,94: = 0.16,q; 2014, q, = 0.15 。 
部 分 权重 设置 下 的 准确 率 对 比 。 
表 6 部 分 权重 设置 对 比 


的 一 组 权重 作 


。 最 终 得 到 的 各 性 格 集合 的 权重 分 别 为 


表 6 列 出 了 


Table 6 Partial weight setting comparison 


权重 (4.4) 45d, ds ds ) 数据 1 数据 2 
0.2,0.16,0.16,0.16,0.16,0.16 96.42 85.67 
0.25,0.15,0.15,0.15,0.15,0.15 96.27 84.87 
0.16,0.23,0.16,0.16,014,0.15 96.91 85.86 
0.15,0.27,0.15,0.14,0.15,0.14 96.55 83.86 
0.15,0.15,0.23,0.16,0.15,0.16 96.81 85.66 
0.14,0.16,0.25,0.15,0.15,0.15 96.81 83.25 
0.16,0.16,0.16,0.21,0.15,0.16 96.43 85.40 
0.15,0.15,0.15,0.24,0.15,0.16 96.63 84.26 
0.16,0.16,0.15,0.16,0.21,0.16 96.41 84.32 
0.14,0.16,0.15,0.16,0.24,0.15 96.36 85.2 
0.14,0.15,0.15,0.15,0.16,0.25 96.45 85.06 
0.14,0.15,0.14,0.15,0.14,0.28 96.27 85.46 


数据 2 e MARIER PARERE US. TEE Je ETT A 


工 标注 ， 存 在 一 定 的 误差 和 主观 性 ， 因 此 所 得 
比 数据 1 的 结果 低 很 多 。 


出 的 实验 结果 


X 6 中 的 结果 显示 在 两 组 数据 中 都 是 在 HC 的 权重 最 高 


的 情况 下 取得 了 近似 的 最 优 结果 。 而 权重 通 
练 集 上 的 准确 率 成 正比 ， 即 准确 率 越 高 ， 权 
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pi 


通常 上 


与 分 类 器 在 训 


Im 


ERK, MK 


4 结果 中 可 以 看 出 五 个 基本 分 类 器 中 HC 的 准确 率 是 最 高 的 ， 
所 以 其 权重 2 也 相应 的 应 该 大 一 些 。 这 与 从 表 6 所 得 出 的 结 
果 一 致 。 
三 种 融合 方法 的 实验 结果 如 表 7 所 示 。 
表 7 融合 方法 比较 
Table 7 Comparison of fusion methods 
方 融合 法 准确 率 召回 率 R Fl 值 
求 和 96.58 97.00 96.78 
加 权 和 96.91 97.00 96.95 
中 位 数 95.35 96.23 95.79 
由 表 7 可 以 看 出 三 种 方法 中 加 权 和 方法 的 Fl 值 最 高 。 


其 中 求 和 方法 是 1 
应 用 中 ， 不 同 的 分 类 器 其 


段 设 所 


的 分 类 器 都 有 同等 权重 ， 但 


在 实际 


有 所 不 同 ， 因 此 其 
几 个 分 类 器 结果 按 大 小 排序 ， 选 出 


文中 这 个 方法 
和 方法 作为 最 终 的 融合 方法 。 


和 要 程度 不 同 所 具有 的 权重 也 应 该 


3.4 ”对比 实验 


效果 要 比 加 权 和 方法 差 。 中 位 数 方法 是 将 
居于 中 间 位 置 的 数 ， 在 本 
自 效果 也 比 加 权 和 方法 差 。 因 此 本 文选 择 加 权 


为 了 验证 本 文 提 出 的 PLSTM 模型 的 有 效 性 , 将 PLSTM 
模型 和 其 他 基准 情感 分 类 模型 SVM、LSTM、KimG9 在 2014 
提出 的 CNN-rand、CNN-static、CNN-non-static 在 准确 率 、 
召回 率 、F1 值 等 方面 做 了 对 比 实验 室 ， 实 验 结果 见 表 S. 

表 8 实验 结果 

Table 8 Experimental results 
方法 准确 率 P AEX R F1 fH 
SVM 58.91 87.6 70.45 
CNN-rand 73.03 85.37 78.72 
CNN-static 13:52 88.49 80.31 
CNN-non-static 73.55 88.36 81.79 
LSTM 88.82 87.80 88.31 
PLSTM 96.91 97.00 96.95 


从 表 8 的 实验 结果 可 以 看 出 ， 本 文中 提出 方法 的 准确 率 


EE 


他 几 种 基准 方法 都 要 高 ,证 明了 本 文 提出 方法 的 


AFEA +H EH 


FE 格 的 用 


户 其 表达 方式 趋 于 一 致 ， 


果 。 


格 文本 集合 进行 
器 更 具有 针对 性 ， 
的 情感 分 类 器 和 
以 使 得 那些 较 少 使 


效 性 。 


针对 每 个 性 
感 


| 练 得 出 的 情感 分 类 器 比 起 通用 的 情感 


同日 


个 通 


4 ARA 


本 文 针对 不 


司 性 格 的 用 


对 在 最 后 采用 了 集成 学 习 来 对 每 个 性 格 
情感 分 类 器 进行 结果 融合 ， 这 样 可 
的 与 个 性 相关 的 特征 也 起 到 作用 。 
本 文 提出 的 方法 取得 了 比 其 他 基准 情感 分 类 器 都 要 女 


因此 
的 效 


户 所 


具有 的 语言 表达 方式 不 尽 相 


同 ， 现 有 的 1 


析 了 现 有 情 
PLSTM 模型 
效 性 。 

PLSTM 


青 感 分 析 工 作 很 少 考虑 到 用 户 的 性 格 这 一 问题 提 


感 和 


只 使 


用 了 基于 LSTM 


出 一 种 基于 性 格 的 微 博 情 感 分析 PLSTM 模型 。 文 章 主要 分 
性 格 分 析 的 现状 和 存在 的 问题 ， 给 出 了 
的 整体 架构 ,通过 实验 验证 了 PLSTM 模型 的 有 


的 分 类 器 来 进行 情感 分 类 


器 的 训练 ， 在 后 续 工 作 中 将 考虑 尝试 使 用 双向 长 短期 记忆 网 


络 BiLSTM、 


否 能 取得 更 好 的 结果 
和 神经 质 也 加 入 进来 进 


深度 


t zt DNN 等 深度 神经 网 络 模型 , 看 是 
同时 可 以 考虑 把 另外 两 种 性 格 开放 性 
步 提高 基于 性 格 的 情感 分 析 模 型 


录用 定稿 


PLSM 的 效果 。 
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